#國產 AI
超越 Nano Banana,這個中國國產 AI 剛剛拿下全球生圖第一 | 附詳細體驗
這幾天 AI 圈都在被 Sora 2 刷屏,沒想到國產 AI 也悄咪咪地幹了票大的。騰訊的混元圖像大模型 3.0,才發佈一週,就在全球最硬核的 AI 競技場 LMArena 上殺瘋了——在26 個全球頂級模型混戰,拿下文生圖全球榜單的 Top 1!這可不是什麼野榜,LMArena 是加州大學伯克利分校搞的,純靠全球網友「盲測」投票,誰好誰壞,全憑真實體驗說話。簡單說,就是把所有模型的名字都遮住,讓你憑感覺二選一,選出你更喜歡的那張圖。這種機制下拿第一,含金量可想而知。LMArena 官方也發文祝賀,說這是「文生圖排行榜大洗牌」,稱混元圖像 3.0 已經超過了 Google 爆火的 nano banana。騰訊這個開源模型實打實把一眾頂級閉源模型都給「干沉默」了.APPSO 也深度體驗了混元圖像大模型 3.0,再次分享給大家。中秋佳節將至,不妨用它來傳達些有意思的祝福,APPSO 預祝大家團團圓圓閤家歡樂。混元圖像 3.0 的最大的亮點是,不僅能畫圖,還能精準「理解」,和利用世界知識「推理」。比如我們想做一張廣告海報,它能把商品畫出來,還順手把文字排版好;想做一套漫畫,輸入一句話,它就能幫我們畫好分鏡。聽起來是很強,但也讓人好奇,它真能替代設計師嗎?還是只是多了點「聰明」的生圖?畢竟我們手上已經有 nano banana 這樣強大的圖像編輯模型,更不用說其他層出不窮的生圖模型。體驗地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual在開始我們的實測之前,先看看這次 3.0 更新了什麼內容。這是首個開放原始碼的工業級原生多模態生圖模型。多模態的能力,意味著它不僅能畫畫,還具備語言模型的理解和推理能力,在畫之前,它可以先想清楚要畫什麼。開源方面,混元圖像 3.0 的體量和能力都處於最前列,參數規模高達 80B,是目前最大的開源生圖模型。騰訊混元圖像 3.0 模型框架圖,80B 參數的 MoE 結構原生多模態架構,也讓一個模型,就可以同時處理文字、圖像、視訊、音訊的輸入輸出,而不是把幾個不同模型拼湊在一起;此外,文字生成的能力,也是混元圖像 3.0 的一大主打,它號稱能解析千字等級的複雜語義內容,精確生成長文字文字。騰訊混元把它形容成一個自帶「大腦」的畫家。使用者只需給出大方向,它就能用常識和世界知識把畫面補全,生成真實、細膩、帶有美學質感的圖像。採用了常用於評估圖像生成效果的 GSB(好/一樣/差)評價方法。總共使用了1000 個文字提示,100 多名專業評估人員,混元圖像 3.0 與 nano banana 和字節跳動的 Seedream,以及 GPT-IMG 對比,一樣好的情況佔比最多,而深灰色部分,則代表混元圖像 3.0 更好,淺灰色代表用來對比的模型更好。光說不練假把式。從常識到創意,從專業到玩梗,我們用不同的提示詞,全方位地測試了這個混元圖像 3.0 模型的生圖能力,結果低估它了?世界知識和推理,AI 像人一樣畫畫有了世界知識,最大的好處,我們的提示詞可以更像人話。就像下面這張圖,我們直接告訴它 labubu,而不用專門去描述 labubu 這個形象具體是什麼樣。生成一個畫出 labubu 的四宮格素描畫流程而一些特定的知識上,它似乎也有查詢的能力,並應用在圖像生成的過程中。像下面這張圖片,我的提示詞只有 3 號線、客村站這些資訊,但是模型推理出下一站是廣州塔、珠江新城、體育西路。更令我感到驚喜的是,混元圖像 3.0 對文字生成的把控,幾乎是做到了精準還原。廣州地鐵客村站站台實拍圖,遮蔽門頂部有顯示3號線的站點情況我們也用 nano banana、ChatGPT、和豆包生成同樣的照片,結果是,都只能根據我輸入提示詞的資訊來生圖,線路站點資訊,有些是文字渲染完全不行、有些是資訊錯誤、還有直接顯示「3 號線站點資訊」幾個字的。一時間不知道是該誇,服從使用者指令,還是說它知識學習得不夠多。不過 Seedream 給我的感覺,整張圖片的風格,是「AI 味」最少的。能夠利用世界知識進行推理,給了生圖模型更多的潛在玩法。就像開頭我們的 labubu 四宮格素描圖,可以擴展到做一些知識點的講解,這些經常在社交媒體平台上刷到的,漫畫科普小卡片。生成一個月全食的四格科普漫畫混元官方也給出了類似四宮格漫畫的提示詞指南,幫助我們單抽出金。開篇表明是四宮格漫畫:「一幅黑白四格漫畫。」分格子描述畫面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」可以展開你的想像,填充細節,這樣效果會更好。想要高級感,很吃提示詞官方在它們 GitHub 倉庫放出的幾張圖片,我第一眼看到,想到的是朋友圈的那些範本封面圖,高級感真的拉滿。但我自己用一些簡單的提示詞,讓混元圖像 3.0 去做的時候,出來的圖片 AI 味是非常重的,甚至給我一種,這不像是 2025 年生圖模型的效果。在提示詞裡面,我們已經用了「日常拍照風格」、「復古濾鏡」等風格化用詞,但是最後的成片,還是高飽和度、高亮度。官方給出的攝影風格,提示詞參考技巧是,主體場景+畫質風格+構圖視角+光線氛圍+技術參數。我們又照著這個格式,重新測試了一回,效果上確實好了一些。指定多少毫米的鏡頭,在提示詞裡面,確定這類技術參數,我認為是生成真實圖片的關鍵。但還是很難抽到「AI 味」沒那麼重的圖片,目前混元圖像 3.0 也只支援文生圖,圖像的編輯功能暫時還沒有上線,所以對提示詞的要求,變得更高。騰訊混元團隊透露,圖生圖、圖像編輯、以及多輪互動等版本將在後續發佈。國外模型的難點,長文字生成真實照片的攝影風格比較不如意,其他風格化,像是卡通、漫畫以及不同材質的渲染,混元圖像 3.0 的表現確實不錯,以及還有一項長文字的生成能力。畫一個咖啡店的菜單黑板,上面寫著:拿鐵 - 30元,美式 - 25元,卡布奇諾 - 28元。而更複雜的文字,也需要掌握一些官方給出的技巧。將大段的文字拆成多句並使用多個引號,文字會更準確。同時,文字的精準性與 prompt 描述的佈局方式有一定關聯。可以嘗試以下的策略:(a)在渲染的文字前使用「第幾行寫著」、「左邊寫著」之類提示佈局資訊的詞(b)修改圖片長寬比(c)換一種內容佈局的方式(如左右佈局換成上下佈局)文章的幾個測試案例,大多集中在「玩」的階段。從效果看,混元圖像 3.0 的確在一些細節上比大部分模型更聰明,但能不能真的應用到具體的工業場景,選擇繼續開源是它最好的答案。最後,不得不說,生圖還是目前 GenAI 裡面最火的,模型能不能出圈,彷彿都得靠生圖。ChatGPT 靠一張吉卜力風格的照片、Gemini 則是用一張一致性極強的桌面手辦,獲得了空前的關注。從風格到一致性,傳達的都是這張照片給我們最直接的感覺,而非照片的具體含義。這大概是視覺動物的特點,一致性過後,AI 圖片的下一個大熱門,會是什麼呢?極強的創意,更極致的細節密度,往真實再進一步。 (APPSO)
DeepSeek新模型開源,新架構亮了!國產AI晶片集體狂歡
DeepSeek離下一代架構,又近了一步!智東西9月30日報導,昨日,DeepSeek宣佈開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制,並在幾乎不影響模型輸出效果的前提下,大幅度提升了長文字訓練和推理效率,被DeepSeek定義為“邁向新一代架構的中間步驟”。HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp魔搭社區地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp這一改進還降低了DeepSeek新模型的服務成本,DeepSeek因此執行了新的價格政策,讓開發者呼叫DeepSeek API的成本降低50%以上。降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元,為DeepSeek-V3.1系列模型的1/4。截至9月30日上午6點,華為雲、PPIO派歐雲、優刻得等雲平台已宣佈上線DeepSeek-V3.2-Exp,華為、寒武紀、海光資訊等AI晶片廠商已經宣佈適配DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎上打造的。在各領域的公開評測集上,兩款模型的表現基本一致,不過,DeepSeek-V3.2-Exp完成任務使用的token量大幅度減少。目前,DeepSeek App、網頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API介面,方便開發者進行對比驗證。除模型本體外,DeepSeek還開源了相關技術報告及程式碼,並提供TileLang與CUDA雙版本GPU算子,以便研究者在不同層級進行實驗和最佳化。技術報告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfDeepSeek還補充道,作為一個實驗性的版本,DeepSeek-V3.2-Exp雖然已經在公開評測集上得到了有效性驗證,但仍然需要在使用者的真實使用場景中進行範圍更廣、規模更大的測試,以排除在某些場景下效果欠佳的可能。01.華為、海光、寒武紀光速適配,網友直呼第二個DeepSeek時刻要來了DeepSeek-V3.2-Exp一經推出,便在產業界與開發者圈子裡引發熱烈反響,不少國內企業紛紛第一時間宣佈完成DeepSeek-V3.2-Exp的適配和上線。華為計算公眾號發文宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並面向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp在昇騰裝置上128K長序列輸出,能夠保持TTFT(首token輸出耗時)低於2秒、TPOT(每token輸出耗時)低於30毫秒的推理生成速度。華為雲則首發上線了DeepSeek-V3.2-Exp,還使用CloudMatrix 384超節點為該模型提供推理服務。在DeepSeek發文宣佈DeepSeek-V3.2-Exp模型開源後的4分鐘,寒武紀也發文稱其已同步實現對該模型的Day 0適配,並開源大模型推理引擎vLLM-MLU原始碼。寒武紀通過Triton算子開發實現了快速適配,利用BangC融合算子開發實現了性能最佳化,並基於計算與通訊的平行策略,達成了較高的計算效率水平。DeepSeek-V3.2-Exp模型的尺寸達671GB,僅下載就可能需要數小時。這種時隔4分鐘的Day 0適配,或許意味著寒武紀和DeepSeek兩家企業在模型發佈前就已經啟動適配工作。據經濟觀察網報導,海光資訊的DCU(深度計算處理器)率先實現了對DeepSeek-V3.2-Exp的Day 0級高效適配與最佳化,確保大模型算力“零等待”部署。在DeepSeek官宣DeepSeek-V3.2-Exp開放原始碼的推文中,有不少網友分享了對模型的使用體驗和感受。有位網友稱,自己在10萬個token的程式碼庫上測試了DeepSeek-V3.2-Exp,速度提升非常明顯。有網友感嘆,DeepSeek API現在幾乎等同於免費了。更有網友認為,這一模型的推出,或許意味著第二個DeepSeek時刻即將到來。Hugging Face上,DeepSeek-V3.2-Exp的社區類股也有不少討論,不過,關注度最高的一條帖子,是來自中國網友的“吐槽”:“咱這個模型是非得國慶前更新嗎?”還有網友列出了DeepSeek每次更新模型的時間,幾乎都卡在節假日的前幾天。02.一手體驗DeepSeek-V3.2-Exp架構創新或許比性能提升更重要DeepSeek-V3.2-Exp在使用體驗上,究竟與此前的DeepSeek-V3.1-Terminus有何不同?在程式設計方面,DeepSeek-V3.2-Exp撰寫的程式碼明顯更為簡短了,相同的任務下,其輸出的程式碼行數要少於DeepSeek-V3.1-Terminus。不過,這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫程式碼未能正常運行,小球直接飛出了六邊形的範圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務。智東西還讓DeepSeek-V3.2-Exp完成了一項資訊檢索任務,要求它推薦幾種適合新手在陽台盆栽的、生長快、果子能直接生吃的植物,並且要保證對小孩絕對安全,最好能附上簡單的播種技巧。與DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成結果更為簡短,用詞也比較“樸素”。並且,DeepSeek-V3.2-Exp推薦的無花果、百香果等植物,需要進行扦插、高頻率養護等操作,並不符合提示詞要求的新手友好。▲DeepSeek-V3.1-Terminus(左)與DeepSeek-V3.2-Exp(右)在資訊檢索任務上的表現(圖源:智東西)總體而言,DeepSeek-V3.2-Exp確實在推理效率上實現提升,但卻在能力上做出了一定的讓步。知乎博主@toyama nao也在測評中發現了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記憶、計算精度穩定性等方面存在明顯短板,還容易有偷懶傾向和陷入死循環的可能。▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價這也得到了其他網友觀點的印證,例如,這位網友便在x平台發貼稱,並沒在這款模型上看到改進,並提出質疑:我們為什麼要使用能力降級的模型呢?作為一款實驗模型,DeepSeek-V3.2-Exp更大的貢獻或許在於理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構上的唯一修改,就是通過繼續訓練引入了DeepSeek Sparse Attention。目前的DSA機制還處在原型期,主要由兩個元件構成:一個Lightning Indexer(閃電索引器)和一個細粒度的token選擇機制。▲DeepSeek-V3.2-Exp架構圖Lightning Indexer能夠快速評估查詢token與歷史token的相關性,從選擇機制只挑選最相關的一部分上下文進入注意力計算,這讓複雜度從傳統的二次方降到了近似線性水平,大幅降低了訓練和推理的成本。在訓練上,DeepSeek-V3.2-Exp採用了“繼續預訓練+後訓練”的方式。繼續預訓練分為兩個階段:首先在稠密模式下短暫訓練indexer,讓它的輸出和標準注意力保持一致;隨後引入稀疏選擇機制,逐漸讓模型適應新的計算方式。完成預訓練後,DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行後訓練。專家蒸餾的思路是針對數學、程式設計、推理等不同領域訓練專門的專家模型,然後將這些模型的知識壓縮排通用模型。混合強化學習則將推理、智能體能力和人類對齊訓練統一在一個RL階段中,避免了傳統多階段方法容易出現的遺忘問題。技術報告顯示,DeepSeek-V3.2-Exp在大多數評測任務上的表現與前代基本持平,個別推理相關的測試分數略有下降,但主要原因是生成的推理token更少,如果使用中間檢查點,差距則會縮小。相比之下,效率的提升尤為顯著。在H800 GPU的測試環境中,長序列推理的開銷明顯降低,證明DSA在真實部署中有很強的實用性。同時,訓練曲線與前代模型保持相似的穩定性,也表明這種架構在收斂性上並沒有額外風險。03.結語:DeepSeek邁向新一代架構正如其名字內的Exp(實驗版)所言,DeepSeek-V3.2-Exp的推出,本身並不是一次性能爆表的升級,而更像是一場架構實驗,展示了一種在長文字處理中兼顧性能和效率的新路徑。作為技術原型,DeepSeek-V3.2-Exp背後的DSA機制或許很快就會得到進一步完善。隨著相關技術的持續最佳化和更多企業、研究者參與驗證,DeepSeek有望在不久的未來交出更令人驚喜的成果。 (智東西)
人在上海,追芯成功
大模型下半場,國產AI晶片如何創新?都在這場大會裡了。智東西9月17日報導,今日,2025全球AI晶片峰會在上海舉行,來自AI晶片領域的42位產學研專家及創業先鋒代表,暢談對大模型下半場中國AI晶片創新、落地、生存、破局的最新觀察與思考。一如既往,大會將國產AI晶片新老勢力、核心生態鏈企業、投資機構代表匯聚一堂,集中輸出技術及產業乾貨,全景式解構AI晶片熱門發展方向。本屆峰會由智一科技旗下智猩猩與芯東西共同舉辦,以“AI大基建 智芯新世界”為主題,由主論壇+專題論壇+技術研討會+展覽區組成,覆蓋大模型AI晶片、架構創新、存算一體、超節點與智算叢集技術等前沿議題。AWE同時也是本次峰會的戰略合作機構。值得一提的是,多家AI晶片企業在會上放出猛料。例如,幾位資深投資人分享投資AI晶片企業所看重的條件,一家超節點創企成立幾個月就融資六七億,雲天勵飛正在研發新一代NPU Nova500,華為昇騰將在12月把CANN全量開源,曦望Sunrise下一代晶片的大模型推理性價比對標輝達Rubin GPU。在展覽區,超摩科技、奎芯科技、特勵達力科、Alphawave、芯來科技、Achronix、曦望Sunrise、矩量無限、AWE、晶心科技、芯盟科技等11家展商進行展示。▲展覽區一隅作為主辦方代表,智一科技聯合創始人、CEO龔倫常發表致詞。從2018年3月至今,全球AI晶片峰會共邀請了超過180位產學研大咖,分享行業趨勢與洞見,已成為AI晶片領域唯一一個持續舉辦且具有廣泛影響力的產業峰會,也是瞭解國內外AI晶片動態的重要窗口。▲智一科技聯合創始人、CEO龔倫常龔倫常還預告了將於今年11月底在深圳舉辦的2025中國具身智慧型手機器人大會,歡迎大家參會交流。註:本文整理了主論壇與大模型AI晶片專題論壇的精華總結。更多相關報導將在後續發佈。01.IEEE Fellow王中風教授:解讀AI晶片三大前沿方向應對模型規模“超摩爾”增長、傳統架構“記憶體牆”、應用場景日趨多元化三大挑戰,中山大學積體電路學院院長、IEEE/AAIA Fellow王中風教授探討了AI晶片設計的三大前沿方向,為行業的發展提供了寶貴的見解和指導。一是模型驅動的高效晶片設計,在模型尺寸增長的趨勢下,讓硬體深度適配AI模型特性,而非讓模型發展受限於硬體資源。王中風教授團隊提出的Transformer硬體加速架構設計工作,是首個完整解決Attention計算加速挑戰的方案,獲得了IEEE 2020年片上系統年會(SOCC)最佳論文獎;N:M稀疏Transformer推理加速框架,可快速實現任意N:M稀疏比例的Transformer模型開發和硬體部署,同時能保持精度穩定;粗粒度-細粒度混合精度量化,搭配專用多核加速器來處理差異計算,能夠實現更靈活的調度。二是應用驅動的AI晶片創新,注重模型的落地與應用,兼顧能效和靈活性的探索。架構創新沒有唯一解,只有更合適的解。結合可重構硬體架構(動態適配不同演算法需求)、領域專用架構(在垂直場景實現超過通用架構的能效)、Chiplet等先進封裝技術(提高設計靈活性、降低成本、縮短上市周期),以應用驅動為核心的AI晶片設計,將是未來值得重點探索的研究方向。三是基於存算一體的晶片設計,從存算架構根源降低能耗,平衡性能與功耗。存算一體架構是晶片設計範式轉移的一個重要方向。數字存算架構的優勢是高精度、高穩定性、生態更成熟,但存在高能耗、高硬體開銷、低儲存密度等問題;模擬存算架構具有低能耗、高儲存密度、低硬體開銷等優勢,但精度較低、對工藝要求高、生態不成熟。王中風教授團隊研究的基於SRAM的數字存內計算架構大模型加速器,支援多種資料精度,相比於傳統馮諾依曼架構,能效比可提升數十倍。上述三條路徑並非孤立,而是相互支撐,共同推動AI晶片從“通用適配”走向“精準定製”。▲中山大學積體電路學院院長、IEEE/AAIA Fellow王中風教授王中風教授總結說,當前AI晶片發展呈現三大關鍵趨勢:一是從通用計算走向領域專用的“專用化”,二是演算法與軟硬體共同進化的“協同化”,三是通過新型計算打破性能瓶頸的“一體化”。以AI計算專用架構SRDA(系統級極簡可重構資料流)為例,通過分佈式3D記憶體控制技術、可重構資料流計算架構、系統級精簡軟硬體融合設計等創新,在大模型智算場景可以大幅提升AI算力利用率與性能,驅使未來基於國產工藝的AI算力晶片也可以實現不亞於國外更先進工藝製程的GPGPU性能。下一代計算範式的發展,首先是軟體、演算法、硬體的共生,實現全環節協同進化;其次是實現無處不在、高效且可信的智能計算,在雲端實現支援AGI訓練的巨型超算系統,在邊緣實現自主機器人的即時決策大腦,在端側實現超低功耗的Always-On感知晶片。此外,高效支援智能計算,還需要促進新興技術融合,實現光子計算、量子計算、AI晶片的潛在結合。王中風教授呼籲開放標準,推動介面、互聯、指令集等的開放,降低創新門檻;注意產學研深度合作,共同攻克量智融合、存算一體、新材料、新工藝、新器件等領域的技術難題;注重人才培養,培養兼具演算法、架構、底層電路及軟體開發等技能的交叉型人才。02.高端對話:大模型下半場引爆國產算力,AI晶片IPO潮將更具想像高端對話以《⼤模型下半場,中國AI芯⽚的破局與突圍》為主題,由智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁主持,和利資本合夥⼈王馥宇、普華資本管理合夥⼈蔣純、BV百度風投董事總經理劉⽔、IO資本創始合夥⼈趙佔祥四位嘉賓進行分享。張國仁談道,大模型的下半場不僅是技術競賽,更是生態競爭,期待中國即將誕生“晶片+場景+演算法”的垂直整合者,出現更多的單項冠軍。▲智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁1、DeepSeek擴大算力池後,投資AI晶片企業看什麼?王馥宇認為,DeepSeek的出現意味著中國出現了“Leading Customer”,好的科技公司會向晶片公司提出需求。蔣純進一步補充道,DeepSeek最大的意義是讓中國有了一套自有大模型體系,讓國產晶片有了用武之地。這些資深投資人會傾向於投資什麼樣的AI晶片團隊?幾位投資人均看重企業的技術路線是否收斂。趙佔祥尤其關注技術路線是否有提升及創新。劉水提到百度風投不單純以商業化衡量項目價值。蔣純說:“小孩子才做選擇,成年人我都要。”他表示成熟技術和創新技術都在投資。王馥宇將市場分為兩類,一類是相對確定的市場,考驗團隊的積累和執行力,第二類是靠技術驅動市場發展。展望晶片企業的未來機遇,蔣純認為,碳基文明被矽基文明取代之前,算力的市場機會看不到頭,市場前景無窮大,現在的技術體系並不是終局。2、一家超節點創企,成立幾個月融資六七億王馥宇稱,很多大廠同樣在建構非全家桶方式的網路架構,未來百花齊放,企業要保持開發、敏感。在蔣純看來,對中國企業面臨的現實情況而言,“小米加步槍”的scale out路線和超節點所代表的scale up路線至少是同樣重要。趙佔祥透露,IO資本最近在看的一個超節點創業公司,成立幾個月就融資六七億,但在超節點機遇背後,網路的可靠性、故障率要求仍面臨挑戰。BV百度風投曾投資不少具身智能企業。據劉水分享,具身智能是個新興賽道,晶片作為核心硬體支撐,目前還在迭代期,真正能完美匹配各類複雜物理互動場景的成熟晶片產品,行業內仍在探索。現階段,很多企業選擇x86 CPU加AI晶片的組合來搭建基礎算力平台,這是行業在技術演進過程中非常自然的過渡性選擇,能快速驗證產品邏輯、跑通初步場景。而這種 “過渡性” 也正是產業的機會所在——未來無論是更適配具身特性的專用晶片研發,還是基於現有硬體的算力效率最佳化,只要能解決實際場景中的痛點,就是產業發展的機會點。3、寒武紀一度登頂A股,“寄託了全村人的希望”幾位投資人雖然主要看一級市場,但也聊到對二級市場的觀察。他們普遍認為,接下來要IPO的AI晶片公司會比登陸2019年科創板的那批國產替代概念晶片公司更有想像力。今年,寒武紀一度超越貴州茅台登頂A股“股王”。在蔣純看來,寒武紀的暴漲背後可能“寄託了全村人的希望”。與上一波晶片企業上市潮相比,當時國產替代概念市場有限,但現在AI市場的需求是無限的。劉水補充說,AI需求正為計算基礎設施建設注入強勁動力。當前,不少國產晶片企業積極推進IPO處理程序,這本身是行業加速成長的體現——借助資本市場的力量,企業能更好地投入研發、擴充產能,為技術突破和規模化交付奠定基礎。不過,上市只是發展的新起點,最終能否站穩市場,關鍵仍在於技術的成熟度、產能的穩定供給以及客戶的深度認可。從長遠來看,企業需要以持續的技術創新和紮實的商業化能力,真正實現產業價值與市場價值的同步兌現。03.瞄準大模型高效推理,做好生態開源開放面向持續爆發的大模型推理需求,如何在晶片架構、開源開放、高速互連、超節點等方向探索創新?在上午主論壇期間,來自雲天勵飛、華為昇騰、行雲積體電路、奎芯科技、探微芯聯、新華三的產業嘉賓分別發表主題演講,分享了他們的觀察與思考。1、雲天勵飛陳寧:國產AI推理晶片迎歷史性機遇雲天勵飛董事長兼CEO陳寧談道,在“政策+需求”雙重驅動下,國產AI推理晶片正迎來絕佳發展機遇。根據灼識諮詢報告,中國NPU市場規模短期預計新增規模339.3億元,長期預計新增規模1092億元。高效Token生成是衡量推理晶片性價比的關鍵指標。11年來,雲天勵飛已研發五代NPU,打造相關指令集、專用算子、存算一體架構、低位元混合量化等晶片硬體技術。其“算力積木”架構是基於國產工藝的D2D Chiplet & C2C Mesh大模型推理架構,具有可擴展性強、靈活性強、即時性高等特點。雲天勵飛提供“深穹”、“深界”、“深擎”三大AI推理晶片系列,分別面向大模型推理算力中心/超節點/一體機/加速卡、邊緣閘道器/邊緣盒子/家庭主機、及機器人/無人機/無人車等AI推理等應用。目前,雲天勵飛正在研發新一代NPU Nova500,並基於Nova500推出多款性能更強的AI推理晶片。▲雲天勵飛董事長兼CEO陳寧2、華為昇騰王曉雷:公佈全面開放原始碼的三個關鍵節點華為昇騰處理器產品總經理王曉雷談道,輝達的軟體開發人員是硬體的兩倍,我們作為生態的後來者,要做好開源開放,跟客戶與夥伴一起,把晶片和解決方案做得更好。晶片方案多種多樣,如何把它用好,是一件非常複雜的事情。AI計算領域,矩陣執行過程需要保證資料到位,而整個資料搬移過程是計算最佳化的核心。處理器跟底軟團隊需要與演算法和業務專家聯合最佳化,才能發揮出處理器的高性能。王曉雷現場公佈了昇騰未來進一步全面開放原始碼的關鍵節點,包括9月30日算子庫全部開源、12月30日CANN全量開源、2026年起解決方案配套產品上市即開源。▲華為昇騰處理器產品總經理王曉雷3、⾏雲積體電路季宇:10萬元跑滿血版DeepSeek⾏雲積體電路創始⼈&CEO季宇拋出一個問題:誰困住了AI產業?他的答案是大型機投資回報率。超節點化、大型機化的成本門檻巨大,但隨著大模型記憶體需求接近DDR/LPDDR的甜點,高品質模型的硬體系統平民化曙光已現。其概念原型產品大模型一體機“褐蟻”採用5090級算力+TB級高頻寬DDR5,能以10萬元成本運行DeepSeek R1/V3 671B FP8,對話速度超過20TPS,20K上下文prefill在18秒以內。叢集概念驗證方案“蟻群”可將超過40台“褐蟻”機器組合作為decode節點,prefill節點採用4根SSD替代DDR,總成本為300萬~500萬元,以約1~2台8卡超算的價格,實現20倍於1~2台超算的並行能力,提供接近DeepSeek公有雲的性價比。行雲希望通過其原型概念產品,呈現DDR/Flash滿足大模型推理需求的潛力,並通過晶片產品,將頂配大模型的硬體成本降低到萬元甚至千元級價位,推動AI普惠。▲⾏雲積體電路創始⼈&CEO季宇4、奎芯科技唐睿:Chiplet將加快國產晶片研發當前AI革命與過往網際網路產業有明顯差異,利潤高度向硬體環節傾斜。奎芯科技聯合創始⼈兼副總裁唐睿談道,隨著模型尺寸不斷變大,算力需求飆升,為了爭奪AGI領域的勝利,科技企業的CAPEX大幅增長且逐漸取代OPEX成為主流趨勢。AI領域存在晶片設計周期遠跟不上算力及模型發展需求的矛盾。在唐睿看來,基於Chiplet的設計能加快晶片研發迭代。2021年-2030年處理器預計研發項目數量年化增長約9%,但基於Chiplet的設計年化增長率高達44%,預計2030年佔比超一半。對此,奎芯打造了基於UCle標準介面IP的國產化完整解決方案,研發了兩代UCle IP,第一代為16GT/s,第二代為32GT/s,且在標準封裝實現。這些IP具有高性能、低功耗、靈活性等優勢,能為晶片快速迭代提供支援。▲奎芯科技聯合創始⼈兼副總裁唐睿5、探微芯聯劉學:國產超節點如何實現異構互聯?探微芯聯創始人、清華⼤學類腦計算研究中心劉學分享說,類腦計算與AI同源異流,天生具備超大規模計算系統的通訊基因,與智算超節點的發展趨勢十分吻合。探微將類腦叢集技術遷移至GPU智算平台,打造面向AI晶片的Scale-up完整互聯方案,實現了覆蓋通訊協議、交換晶片/網內計算、軟體棧/集合通訊庫、RAS機制與可維護機制、路由演算法、超節點平台、性能建模和異構互聯等關鍵技術。不過,劉學認為,超節點通訊不只是技術堆疊。通訊協議具有較強生態屬性,需要廣泛的應用場景和生態支援才能推廣。從類腦叢集體系結構的大量工程經驗積累,到探微通訊互聯關鍵技術的不斷迭代,探微方案實現從底層到高層的計算和通訊的全方位打通,能夠為智算超節點生態夥伴提供Scale-up通訊協議系統級解決方案、異構融合及智算超節點萬卡叢集工程方案。▲探微芯聯創始人、清華⼤學類腦計算研究中心劉學6、新華三劉善⾼:超節點是AI系統工程巔峰新華三集團AI伺服器產品線研發部總監劉善⾼談道,大模型技術趨勢給算力基礎設施帶來了算力牆、視訊記憶體牆、通訊牆等挑戰,打造AI超節點成為必然趨勢。這需要異構計算協同最佳化、高速網際網路絡、精密結構設計等基礎設施的深度整合,對軟硬協同要求高,是AI系統工程的巔峰。新華三設計了兩款超節點產品:整機櫃超節點H3C UniPoD S80000和靈活部署超節點H3C UniPoD F80000。S80000實現櫃內卡間全互聯通訊,互聯頻寬提升8倍,單機櫃訓練性能相較於單節點最高可提升10倍,單卡推理效率提升13倍;F80000基於傳統AI伺服器即可靈活擴展Scale-up網路,能夠實現MoE大規模訓練性能提升35%以上。未來,AI加速卡將更加百花齊放,高頻寬低延遲的卡間高速網際網路絡也將是必然趨勢。▲新華三集團AI伺服器產品線研發部總監劉善⾼04.資料流、低精度、稀疏化、全國產、Chiplet,AI晶片走向多路創新在下午的大模型AI晶片專題論壇上,上海交通大學電腦學院教授、上海期智研究院PI冷靜文分享了資料流體系架構如何成為新一代的大模型加速引擎。隨後,來自曦望Sunrise、愛芯元智、墨芯人工智慧、江原科技、邁特芯、智源研究院、北極雄芯、Alphawave的產業嘉賓分別發表主題演講,分享創新的技術路徑與最新進展。1、上海交通大學冷靜⽂教授:資料流能提高大模型推理效率上海交通大學電腦學院教授、上海期智研究院PI冷靜文認為,資料流體系架構是大模型高效執行研究的重要方向,它通過數值壓縮與計算流調度的最佳化,提升推理性能。低位寬數值類型可顯著降低儲存開銷,提高計算效率;而向量量化有望幫助大模型突破4bit的表示極限。冷靜⽂教授團隊研發了面向多元素量化的計算引擎VQ-LLM,通過三級快取機制和以碼本為中心的計算流程最佳化,實現性能與精度的雙重提升。新一代GPU架構正在逐漸DSA化,程式設計難度不斷增加。其團隊已經在探索一種“Kernel Free”的程式設計模型、用“Register Pooling”降低共用記憶體帶來的開銷,並使用動態平行機制,最終形成基於程式碼塊的資料流抽象機模型。項目成果未來將開源發佈。▲上海交通大學電腦學院教授、上海期智研究院PI冷靜文2、曦望陳博宇:國產AI晶片破局,極致推理目標1分錢/百萬Token曦望Sunrise研發副總裁陳博宇認為,大模型發展進入下半場,雲端訓練算力向高效推理傾斜。AI晶片高效推理是一場長期價值競賽,降成本、降能耗,性價比的窪地亟待填平。曦望的下一代晶片採用單晶片高配比低精度計算單元,大模型推理性價比對標輝達Rubin GPU。在主流測試集中,NVFP4精度下運行DeepSeek-R1的表現已接近FP8,低精度資料格式能顯著擴巨量資料吞吐,提升推理效率,從而降低每Token成本。曦望晶片軟體生態通用性良好。算子庫、工具鏈、通訊庫均為全端自研,主體功能模組與CUDA對齊,支援各類主流開源模型的推理部署,支援CUDA程式碼無縫遷移和工作。曦望晶片的應用形態分為一體機和超節點,是Scale-up/Scale-out互聯架構原生支援超節點產品。超節點支援PD分離和大EP部署、All-to-All互聯、面向千億級或兆級參數的多模態大模型推理。▲曦望Sunrise研發副總裁陳博宇3、愛芯元智劉建偉:AI應用(大模型)需要重新設計原生AI晶片愛芯元智聯合創始⼈、副總裁劉建偉分享道,過去端側AI晶片主要跑傳統CNN模型,場景明確,大模型的興起則提升了AI上限,應用場景更廣泛,有望引發成本驅動型生產力革命。在他看來,當AI程序規模足夠大時,現有運行架構不是最高效的,值得重新設計適合跑AI程序的原生處理器。端側和邊側長期受成本、功耗剛性約束,對高能效比AI處理器需求迫切。這驅使愛芯元智選擇從端側和邊緣側入手做AI基建。設計原生AI處理器,需關注算子指令集和資料流DSA架構,兩者相輔相成。採用可程式設計資料流微架構可提升能效比。異構多核處理器要保證由硬體來調度,以降低客戶開發與使用成本。愛芯元智已打造了從工具鏈到晶片的完整軟硬體體系,推動建構邊緣智能共同體。▲愛芯元智聯合創始⼈、副總裁劉建偉4、墨芯人工智慧曾昭鳳:稀疏化讓AI計算“更聰明”墨芯人工智慧解決方案總監曾昭鳳談道,傳統硬體架構面臨性能提升困境,通過軟硬一體方案來解決算力瓶頸已是業內公認的發展方向,稀疏化有望成為破解算力瓶頸的突破口。稀疏計算是一種“更聰明”的AI計算方式,如人類大腦一般,僅啟動計算所必需的神經元,減少冗餘重複,提升有效性能。基於這一認知,墨芯提出了“權重稀疏化+啟動稀疏化”的雙稀疏技術,在相同硬體資源下實現高達32倍的稀疏率,並協同設計了配套的軟體方案。從演算法與軟體出發,墨芯打造了相應的硬體與架構,開發的計算卡已能在雲端推理場景中加速CV、NLP及知識圖譜等多類任務。▲墨芯人工智慧解決方案總監曾昭鳳5、江原科技王永棟:建構全國產化AI晶片產業鏈江原科技已建構貫通EDA工具、晶片IP、晶片設計、晶片製造、封裝測試的全國產化AI晶片產業鏈。江原科技聯合創始⼈兼CTO王永棟認為,全國產路線已經成為行業共識,核心挑戰集中在工藝和生態上。他從工藝、架構、生態層面探討了國產晶片的突圍路徑。工藝維度,國內AI晶片企業唯一的道路就是擁抱全國產,具體路徑包括基於國內工藝特點進行協同最佳化、系統整合創新。架構維度,需要向AI定製傾斜,通過拆解AI演算法將其中佔比高、對效率影響大的部分進行硬體最佳化。生態維度,從降低客戶使用門檻、發揮本土化優勢打造性能長板、擁抱開源切入。▲江原科技聯合創始⼈兼CTO王永棟6、邁特芯李凱:突破端側大模型晶片三個關鍵痛點在邁特芯主任工程師李凱看來,端側AI場景正從“離身智能”向“具身智能”進化,這離不開端側晶片的支援。端側大模型晶片(LPU)需要滿足低功耗、高token數、低成本,這正是痛點所在。邁特芯LPU採用的3D-DRAM解決方案可大幅提升頻寬,以滿足端側大模型需求。該方案採用了針對大模型算子最佳化的DSA設計和自研立方脈動陣列架構,基於多項技術最佳化,實現計算利用率和記憶體頻寬利用率最大化。演示中,基於邁特芯LPU推理卡可實現大語言模型端到端部署,頻寬利用率75%、性能75tokens/s,性能和能效達到國際領先水平。邁特芯針對泛端側大模型硬體產品、端側大模型硬體產品和推理一體機三類場景佈局產品,三個市場的總空間可達兆級。▲邁特芯主任工程師李凱7、智源研究院鄭楊:統一編譯器給OpenAI Triton語言補短板北京智源⼈⼯智能研究院AI編譯器專家鄭楊分享說,OpenAI的Triton語言已成為業內公認的、繼CUDA後第二大流行的AI算子開發語言,但其也有明顯弱勢:需要在開發效率和性能之間權衡,跨晶片的可移植性和性能不足,治理與生態面臨侷限性,以及版本分散等。為此,智源建構了面向多元AI晶片的統一編譯器——FlagTree。FlagTree基於硬體感知進行了編譯指導最佳化,允許程式設計師通過註釋嵌入硬體最佳化提示flagtree_hints,具有使用成本低、生態相容好、可移植性強等特點。同時,該編譯器在C++執行階段進行了最佳化,提供從C++呼叫Triton核心的方法,從而節省Wrapper耗時,整體降低80%以上,與CUDA接近。▲北京智源⼈⼯智能研究院AI編譯器專家鄭楊8、北極雄芯徐濤:大模型推理落地有效降本迫在眉睫截至2025年6月,中國日均tokens消耗量突破30兆,比2024年增長300+倍,且依然處於高速增長期。而大模型應用商業化閉環任重道遠,一方面C段訂閱付費較難,B端API呼叫收費與美國相比有數量級的差距,另一方面國內算力成本並不優於美國。北極雄芯聯創、副總裁徐濤談道,當前中國大模型應用落地商業化,解決成本問題至關重要。而受制於各類制裁,面對高速增長的算力、儲存容量、記憶體頻寬的“不可兼得三角”,國內上下游企業亟需共同開展架構創新。在雲端推理場景,北極雄芯將在近期推出面向Decode環節的專用加速方案,通過Chiplet+3D堆疊的近存計算技術大幅降低推理成本至少一個數量級,相比主流GPU晶片提升10倍以上性價比。在端側AI領域,北極雄芯的啟明935系列芯粒通過Chiplet靈活組合應用,為主機廠提供AI Box、艙駕一體、高階智駕等不同擋次應用的解決方案。▲北極雄芯聯創、副總裁徐濤9、Alphawave鄧澤群:高速連接市場猛增,Chiplet是變革路徑Alphawave戰略客戶銷售經理鄧澤群談道,高速連接的市場規模2023年接近100億美元,預計2026年接近180億美元,年複合增長率達到20%。這背後的推動力就是資料中心建設,其對資料的傳輸、儲存、處理需求爆炸,資料頻寬每2~3年翻一倍。生成式AI正在重新定義計算和連接。他預測ChatGPT背後下一代模型的參數規模或達到百兆等級,促使雲服務商建設更高規格的資料中心。鄧澤群認為,新計算技術的變革路徑是Chiplet,以及為雲服務商進行定製,以滿足大語言模型的需求。伴隨AI產業發展,Alphawave的業務體系已經從IP供應擴展到高速連接技術的垂直整合方案。▲Alphawave戰略客戶銷售經理鄧澤群05.結語:國產AI晶片掀開落地新篇章8年來,智東西、芯東西持續對AI晶片全產業鏈進行追蹤報導,見證了AI晶片產業及智能革命浪潮的發展,以及許多AI晶片團隊的厚積薄發。多個知名市場調研機構的資料顯示,2024年中國AI晶片出貨量顯著提升,華為昇騰、阿里平頭哥、崑崙芯、寒武紀、摩爾執行緒、燧原科技、中昊芯英、壁仞科技、沐曦股份、太初元碁等企業的AI晶片均已走向量產交付,並在性能方面縮短與國際先進水平的差距。龐大的國內AI基建市場,正向國產AI晶片敞開大門。與此同時,國產AI晶片正迎來政策紅利期。今年8月,國務院印發《關於深入實施“人工智慧+”行動的意見》,在強化基礎支撐能力方面,提到強化智能算力統籌,支援AI晶片攻堅創新與使能軟體生態培育,加快超大規模智算叢集技術突破和工程落地。在AI產業趨勢、地緣博弈等複雜因素的影響下,AI晶片自主可控勢在必行,國產模型與國產晶片的適配有望進一步增強,AI晶片及算力基礎設施技術仍有巨大的創新空間和市場前景。 (智東西)
中國部門制定國產化戰略,預計到2027年,將中國ai晶片的自給率提升至70%以上,全面替換掉美國晶片
01前沿導讀據《日經中文網》所發佈的報導指出,中國北京、上海兩地正在快速提升國產ai晶片的自給率和使用率。其制定的目標是到2027年,ai資料中心所使用的晶片,中國晶片的比例要提升到70%以上,甚至是100%,將美國輝達公司的晶片從中國市場上全面替換掉。02推動國產化《中國製造2025》計畫已經接近尾聲,回看該計畫實施的這10年以來,儘管美國在科技、貿易、金融等多個領域對中國企業實施制裁壓制,但是中國企業在10年的發展中取得了多項顯著的技術進步,也聚集力量來挑戰美國的科技霸權,讓中國晶片產業以更具自信心的狀態向前發展。有國際產業分析師針對中國的國產化目標進行預測,其預測稱,中國部門還會在中國製造2025計畫的基礎上,再次制定未來的技術目標,但是中國企業依然遵循著只做不說,或者多做少說的低調風格,以免引起美國政府的惡意針對。《中國製造2025》計畫是中國第一次大規模啟動的科技國產化戰略,該計畫在國際範圍內引起了劇烈轟動,同時也讓第一次任職美國總統的川普產生了敵意。特蘭普總統認為,中國如此聲勢浩大的推動中國科技國產化,這是對美國科技的瞧不起,是對美國技術具有“侮辱性”的計畫。於是美國便要求中國部門停止對涉及先進技術領域的企業提供投資補貼,面對如此無理的要求,中國部門直接選擇拒絕。於是《中國製造2025》就成為了美國打壓中國的導火索,而美國重拳出擊所打壓的產業,就是中國自主技術最薄弱的晶片產業。美國在晶片產業上面對中國的技術封鎖,讓中國企業吃盡了苦頭,也讓中國企業和政府部門堅定了要開發自主晶片產業鏈的決心。新能源汽車是《中國製造2025》計畫下的一大成功產業,其最初的目標是要求中國企業在2025年實現300萬新能源汽車的銷量。但是截止到去年,中國新能源汽車在2024年全年的總銷量已經超過了1000萬輛,佔全球市場近三分之二的市場份額。儘管產業規模和銷量資料位居全球前列,但是根據官方的產業資料顯示,中國汽車產業所需的高端晶片,其90%都需要依靠進口的方式獲取,這是汽車供應鏈的一大薄弱環節。中國發展研究所前副所長丁一凡表示:美國雖然無法遏制住中國科技的崛起,但是美國在晶片製造方面的制裁限制,確實拖慢了中國的發展速度。03全產業發展美國國務卿魯比奧在2024年9月份發佈報告指出:在《中國製造2025》的推動下,其針對性發展的10大關鍵產業已經有4個處於世界領先地位,5個接近制定的目標。在電動車、能源發電、造船、高鐵這四個產業中,中國已經位居世界領先地位。在航空航天、生物科技、先進材料、機器人、半導體領域中,中國企業的進步顯著,已經接近計畫制定的目標。目前唯一沒有達到預期的產品,只剩下農業機械。並且中國在10個產業的聚合發展中,展現出了驚人的效果。中國的電動汽車產業已經成為了比肩美國特斯拉的存在,因為電動汽車採用的是電控系統而不是發動機系統,所以電動汽車可以順利的與人工智慧嫁接,從而開發更高階段的無人駕駛技術。在無人駕駛技術的開發中,全球只有兩個陣營,美國和中國,這是真正意義上屬於發達國家和開發中國家的未來技術博弈。ai技術的核心就是晶片與巨量資料訓練,這也是無人駕駛技術所必要的條件。根據山西證券的資料顯示,2024年年初,初輝達在中國ai產業的市場份額達到了80%,中國自主ai晶片的利用率較低,這是一個較大的產業雷區。在2025年4月,國家部門舉行了ai技術研討會,提出了支援國產ai半導體的開發和生產方針,強調充分發揮新型舉國體制優勢,堅持自立自強。除技術較為完善的華為昇騰之外,百度崑崙、寒武紀思元也正在研發下一代用於ai訓練的專用晶片。根據彭博財經所發佈的預測資料顯示,在中國自主品牌日益強大的情況下,輝達在中國未來的市場份額會逐步降低,中國自主的ai晶片將會成為國內的主導產品。 (逍遙漠)
中國建議關鍵領域採用國產AI晶片!
中國相關部門近期向重點行業企業發出建議,在關鍵資訊基礎設施領域優先採用國產AI晶片。這一舉措旨在提升國家數字基礎設施的安全可控水平,同時推動國產晶片產業的發展與成熟。據瞭解,建議主要涉及電信、金融、能源等關鍵行業,要求在新採購項目中優先評估國產晶片方案。多位行業人士透露,華為昇騰910B、寒武紀MLU370等國產AI晶片已通過多項嚴格測試,在性能與安全性方面達到應用要求。"供應鏈安全是數字經濟健康發展的基石,"中國人工智慧產業發展聯盟專家表示。資料顯示,2024年上半年國產AI晶片出貨量同比增長85%,在訓練和推理場景的性能指標持續提升,部分場景已達到國際先進水平。值得注意的是,中國半導體行業協會近期發佈了《AI晶片安全測試規範》,為國產晶片的安全性評估提供技術標準。規範涵蓋硬體安全、資料保護、抗攻擊能力等多項指標,要求企業建立全生命周期的安全管理體系。市場分析顯示,這一舉措將加速國產晶片的迭代最佳化。目前,國產AI晶片在政務雲、智能製造等場景已實現規模應用,下一代產品將在2025年量產,性能預計提升50%以上。"這是產業發展的必然趨勢,"清華大學微電子所教授表示,"通過應用反饋促進技術迭代,形成良性發展循環。"據悉,多家雲端運算企業已組建國產晶片適配團隊,加快系統遷移處理程序。行業資料顯示,中國AI晶片市場規模在2023年突破千億元,其中國產晶片佔比已達35%。隨著政策支援和技術進步,預計到2025年國產化率將提升至50%以上。在全球半導體產業格局重塑的背景下,中國正通過政策引導、技術攻關和市場應用的多重驅動,建構自主可控的晶片產業生態,為數字經濟發展提供堅實支撐。 (晶片行業)
DeepSeek-3.1的UE8M0 FP8 Scale專為下一代國產AI晶片而設計
UE8M0 FP8 是一種專為下一代國產 AI 晶片設計的 8 位浮點格式(FP8) 的特定組態,由 DeepSeek-V3.1 模型首次採用,旨在顯著降低大模型推理階段的視訊記憶體佔用和計算成本,提升推理速度。1. 技術細節- UE8M0 的含義:- U:表示無符號(Unsigned),即不佔用符號位,適用於啟動值通常非負的場景。- E8M0:8 位全部用於指數(Exponent),尾數(Mantissa)位為 0。這並不是字面意義上的“0 位尾數”,而是指通過隱式歸一化或動態調整尾數精度實現靈活性。- 動態尾數策略:實際實現中,可能採用動態尾數分配(如根據指數範圍動態調整尾數有效位),或默認尾數為 1,值的範圍為 \(2^{-128}\) 至 \(2^{127}\)。- FP8 Scale:- 指在量化過程中用於縮放數值的因子(Scale),確保數值在 FP8 的表示範圍內。- 塊級縮放:將張量劃分為固定大小的塊(如 128×128 的 tile),每個塊共用一個縮放因子。這種塊級縮放(而非整個張量級)在保留 8 位位寬的同時,將可用動態範圍擴展數十倍。2. 優勢與應用- 硬體效率提升:- 視訊記憶體節省:權重視訊記憶體佔用降低約 50%,例如 680B 模型權重檔案從 1.3-1.5TB 降至約 680GB。- 計算加速:由於 UE8M0 不含尾數與符號位,處理器在根據縮放因子對資料復原時,僅需乘以對應的 2 的冪(即指數位移操作),無需浮點乘法、規格化或舍入邏輯,縮短了時鐘關鍵路徑。- 國產晶片適配:- 寒武紀:思元 590 晶片明確支援 FP8 精度,算力密度較前代提升 40%。- 摩爾執行緒:首個支援原生 FP8 的國產 GPU 廠商,基於 MUSA Compute Capability 3.1 計算架構。- 海光資訊:DCU(深算系列)通過 FP8 最佳化技術降低 30% 視訊記憶體佔用並提升 20% 運算效率。3. 行業影響- 技術突破:DeepSeek-V3.1 是國內首個成功使用 FP8 完成大模型訓練的案例,證明了FP8 在超大規模模型訓練中的可行性。- 生態閉環:UE8M0 FP8 助力國產 AI 晶片-國產開源模型-下游應用形成完整生態閉環,推動國產 AI 晶片加速追趕國際先進水平。UE8M0 FP8 是 DeepSeek-V3.1 採用的一種創新 8 位浮點格式組態,通過無符號設計、全指數位分配和塊級縮放策略,顯著提升國產 AI 晶片在推理和訓練中的效率與性能,標誌著國產 AI 晶片技術的重要突破。 壹號講獅)
突破封鎖!華為新技術繞開HBM,終結HBM暴利時代?
國產AI晶片,除了製程工藝方面的差距之外,發展最大的障礙就是HBM(高頻寬記憶體),當前HBM作為高端AI晶片的關鍵元件,目前由三星(38%)、SK海力士(53%)和美光(10%)壟斷,且HBM3價格年內暴漲300%。雖然根據業內人士透露,國產儲存巨頭已經突破HBM2相關技術及產業鏈問題,但客觀而言,國產HBM要在短期內追上並不現實。於是,華為選擇了一條全新的技術路徑繞過HBM。根據華為官方消息,其在8月12日召開的“2025金融AI推理應用落地與發展論壇”上發佈一項AI推理領域的突破性技術成果。該技術旨在降低中國AI推理對HBM(高頻寬記憶體)的依賴,提升大模型推理性能,完善國內AI推理生態。那華為發佈的突破性技術是什麼呢?華為將光通訊的矽光晶片和昇騰AI算力晶片綁在一起,直接繞過HBM通道。具體來說,就是華為將矽光互聯與昇騰AI算力結合,形成“光-算一體化”方案,其用矽光模組的高速光鏈路(1.6Tbps)替代傳統HBM的電氣互連,通過物理層高頻寬傳輸緩解記憶體頻寬壓。硬體創新之餘,在算力也上進行了相應的最佳化;華為與北大合作開發的DeepSeek全端開源推理框架,結合自研SCOW超算平台與CraneSched調度系統,最佳化Ascend晶片在低HBM環境下的計算效率。也就是說,8月12日公佈的AI推理新技術,通過軟硬體協同設計,“減少對HBM的依賴”並提升大模型推理性能,當然具體的應用資料需要等待進一步核實再行公佈。但無疑,正式華為技術上的突破,通過光互聯在此承擔晶片間高速資料交換,部分抵消單晶片HBM不足的劣勢。對於國產晶片產業而言,這是一條全新之路。據瞭解,此次華為矽光晶片是基於成熟8英吋SOI工藝製造,100%國產供應鏈,從而有效規避了制裁風險。例如,2024年12月美國將HBM2E列入禁售清單,給國產AI產業鏈造成了不小的損失。另外,由於光互聯功耗低於電氣互聯,1.6T模組的部署將降低資料中心總TCO,這也意味著光互聯具有成本和能效上的優勢。同時,由於此次華為新技術突破IEEE 802.3dj規範因色散限制放棄CWDM的困境,這進一步推動中國主導高速光通訊標準。目前,根據產業鏈消息,華為新技術將率先在金融行業進行應用,恆生電子作為金融AI系統服務商,華為長期合作夥伴,有望首批接入新技術最佳化資管、交易系統。當然,作為華為昇騰伺服器核心合作夥伴,承擔AI伺服器產能擴張的神州數位;以及為華為提供昇騰平台開發及模型最佳化服務,深度參與金融AI解決方案的軟通動力也必將受益良多。在全球AI產業蓬勃發展之時,國內AI訓練市場的需求也正在急劇膨脹。根據IDC預測到2027年,中國人工智慧算力市場規模將達到357億美元,年均增長超過20%。如果記憶體性能瓶頸不解決,這個市場預期就是空中樓閣;華為的突破,或將是國產AI產業解套的最好方式。因此,華為以“矽光×昇騰”繫結,本質是用光通訊的物理層創新彌補儲存層缺陷。短期來看,通過光互聯高頻寬+分佈式算力堆疊以維持國產AI競爭力;但長期而言,1.6T光模組+自適應色散晶片推動算力網路化,逐步擺脫對HBM的物理依賴。這一路徑不僅回應了封禁,更可能重塑AI硬體架構——從“拼單晶片HBM頻寬”轉向“拼光互聯效率與系統級最佳化”,為中國AI算力開闢新戰場。 (飆叔科技洞察)